Hadoop迈入2.0时代更适合企业应用_Hadoop

“现在是企业应用Hadoop的最佳时机。”Hortonworks公司首席技术官Jeff Markham在11月底举行的2013中国Hadoop技术峰会上演讲时表示。在本次峰会上，Hadoop进入2.0时代成了人们谈论的焦点。Jeff Markham表示，Hadoop 2.0拥有更强大、更广泛的符合企业用户需求的新特性，弥补了Hadoop 1.0的不足之处，更符合企业用户的需求。

　　Hadoop改头换面

Jeff Markham在介绍Hadoop 2.0的新特性时，记者听到身后有人窃窃私语：“你看，Hadoop 2.0的框架中多了几个奇怪的功能模块。”是的，这些功能模块中最重要的就是YARN。YARN其实是一个资源管理器，它从某种程度上说颠覆了Hadoop的数据处理核心MapReduce，能让用户以与批处理完全不同的新的交互方式来运行Hadoop。众所周知，Hadoop的设计初衷是为了搜索和索引Web网页，而负责操控数据的MapReduce擅长处理和分析非结构化或半结构化的数据，比如日志文件等，但并不适合处理所有类型的数据。随着数据量的增长以及数据复杂性的增加，人们更希望能够在一个集群中处理多种类型的应用程序。这也是Hadoop 2.0诞生的背景。

有人认为，YARN本质上就是Hadoop的新操作系统，它突破了MapReduce的性能瓶颈。Hadoop与YARN的组合更适合企业大数据的应用。YARN的设计思想是将资源管理与作业调度/监控功能分离，其架构实现是通过一个全局的ResourceManager与若干个面向具体应用程序的ApplicationMaster的组合，其中ResourceManager负责将资源分配到各个应用程序，而ApplicationMaster负责运行和监控任务。Jeff Markham表示：“加入YARN这一管理层，让Hadoop可以更好地满足企业级用户对大数据平台的需求。我们公司从安全、管理、配置等多个层面已经为Hadoop 2.0进入企业做好了准备。”

Hadoop 2.0已经不是一个设想，而是实实在在的解决方案。中国本土的大数据公司星环信息科技(上海)有限公司(以下简称星环科技)就在峰会上宣布，正式推出融合Spark与Hadoop 2.0的大数据平台产品Transwarp Data Hub。“企业用户的一个共同想法是，更高效地处理更大量的数据，同时降低时延。”星环科技联合创始人、CTO孙元浩介绍说，“以前，针对不同数量级的数据，人们会采用不同的处理技术，比如内存技术、索引技术以及一些性能优化技术等。Transwarp Data Hub的一个最突出的优势是，可以在一个平台上处理从GB级到PB级的数据。”

正是因为Transwarp Data Hub具备了这样的能力，所以它的应用范围十分广泛，包括离线分析、统计与挖掘、在线存储以及在线的基于内存的高速分析等。Transwarp Data Hub将数据集成/ETL、大数据存储和在线服务系统、基于内存的高效计算引擎、高性能SQL、统计分析和机器学习等融为一体，实现了性能上的突破。用孙元浩的话说，Transwarp Data Hub具有“闪电”般的速度，其速度比开源Hadoop 2.0快10～100倍。此外，Transwarp Data Hub还具有强大的分析能力，并与Hadoop生态系统全面兼容。

以Transwarp Data Hub为核心，星环科技还与许多大数据厂商进行了合作，包括Revolution R、Informatica、Tableau等，将这些厂商的数据处理与分析工具进行整合，构成了完整的大数据平台。

Hadoop迈入2.0时代更适合企业应用

　　降低应用门槛

由于Hadoop本身的复杂性，以及企业中缺少相关的大数据专业技术人员，Hadoop若想在企业用户中得到快速普及其实并不容易。因此，很多IT厂商纷纷向Hadoop抛出“橄榄枝”，有的提供基于Hadoop的硬件解决方案，有的则推出了Hadoop软件的商业发行版，其目的只有一个，就是降低Hadoop的应用门槛。

在本次峰会上，许多知名IT厂商，包括英特尔、VMware、华为等以及众多电信运营、互联网企业都现身说法，为Hadoop在中国的推广站脚助威。英特尔亚太研发有限公司总经理何京翔表示，除了发布Hadoop商业发行版以外，英特尔从硬件(包括处理器、固态硬盘等)、安全性、管理和优化等多个角度对Hadoop提供全方位支持，目的就是让Hadoop更能满足企业用户的需要。

Hadoop迈入2.0时代更适合企业应用

深入Nutch index源代码解析(一)

hadoop来了，你准备好了吗

Hadoop教程（一）如何使用Hadoop分析数据

Hadoop教程(二)讲解MapReduce用户编程接口

hadoop常见问题解决

聚焦搜索，数智采购|2021第一届百度爱采购数智大会即将盛大开启

自主创新赋能信息技术产业发展紫晶存储亮相数字中国展会

XSKY统一存储落地首都医科大学宣武医院

大兆科技携智慧医疗存储方案走进中华医院信息网络大会

德赛西威与华为签署全场景智慧出行生态解决方案合作协议

Hadoop迈入2.0时代 更适合企业应用

深入Nutch index源代码解析(一)

hadoop来了，你准备好了吗

Hadoop教程（一）如何使用Hadoop分析数据

Hadoop教程(二)讲解MapReduce用户编程接口

hadoop常见问题解决

聚焦搜索，数智采购|2021第一届百度爱采购数智大会即将盛大开启

自主创新赋能信息技术产业发展 紫晶存储亮相数字中国展会

XSKY统一存储落地首都医科大学宣武医院

大兆科技携智慧医疗存储方案走进中华医院信息网络大会

德赛西威与华为签署全场景智慧出行生态解决方案合作协议

Hadoop迈入2.0时代更适合企业应用

自主创新赋能信息技术产业发展紫晶存储亮相数字中国展会